深度异常检测已被证明是几个领域的有效和强大的方法。自我监督学习的引入极大地帮助了许多方法,包括异常检测,其中使用简单的几何变换识别任务。然而,由于它们缺乏更精细的特征,因此这些方法在细粒度问题上表现不佳,并且通常高度依赖于异常类型。在本文中,我们探讨了使用借口任务的自我监督异常检测的每个步骤。首先,我们介绍了专注于不同视觉线索的新型鉴别和生成任务。一部分拼图拼图任务侧重于结构提示,而在每个件上使用色调旋转识别进行比色法,并且执行部分重新染色任务。为了使重新着色任务更关注对象而不是在后台上关注,我们建议包括图像边界的上下文颜色信息。然后,我们介绍了一个新的分配检测功能,并与其他分配检测方法相比,突出了其更好的稳定性。随之而来,我们还试验不同的分数融合功能。最后,我们在具有经典对象识别的对象异常组成的综合异常检测协议上评估我们的方法,用细粒度分类和面部反欺骗数据集的局部分类和局部异常的样式异常。我们的模型可以更准确地学习使用这些自我监督任务的高度辨别功能。它优于最先进的最先进的相对误差改善对象异常,40%的面对反欺骗问题。
translated by 谷歌翻译
Transformers have proved to be very effective for visual recognition tasks. In particular, vision transformers construct compressed global representations through self-attention and learnable class tokens. Multi-resolution transformers have shown recent successes in semantic segmentation but can only capture local interactions in high-resolution feature maps. This paper extends the notion of global tokens to build GLobal Attention Multi-resolution (GLAM) transformers. GLAM is a generic module that can be integrated into most existing transformer backbones. GLAM includes learnable global tokens, which unlike previous methods can model interactions between all image regions, and extracts powerful representations during training. Extensive experiments show that GLAM-Swin or GLAM-Swin-UNet exhibit substantially better performances than their vanilla counterparts on ADE20K and Cityscapes. Moreover, GLAM can be used to segment large 3D medical images, and GLAM-nnFormer achieves new state-of-the-art performance on the BCV dataset.
translated by 谷歌翻译
在全球范围内消除语言障碍的目标的驱动下,机器翻译已巩固自己是当今人工智能研究的关键重点。但是,这样的努力围绕着一小部分语言结合在一起,留下了绝大多数低资源的语言。在确保安全,高质量的结果的同时,在牢记道德考虑的同时,打破200个语言障碍需要什么?没有留下的语言,我们首先通过与母语人士的探索性访谈来解决对低资源语言翻译支持的必要性来应对这一挑战。然后,我们创建了旨在缩小低资源和高资源语言之间的性能差距的数据集和模型。更具体地说,我们开发了一种有条件的计算模型,基于专家的稀疏混合物,该模型经过针对针对低资源语言量身定制的新颖有效的数据挖掘技术培训的。我们提出了多次建筑和培训改进,以抵消数千个任务的培训。至关重要的是,我们使用人类翻译的基准,Flores-200评估了40,000多种不同的翻译方向的性能,并将人类评估与新型毒性基准相结合,涵盖Flores-200的所有语言,以评估翻译安全性。我们的模型相对于先前的最新技术,实现了44%BLEU的改善,为实现通用翻译系统奠定了重要的基础。最后,我们开源此工作中描述的所有贡献,可在https://github.com/facebookresearch/fairseq/tree/nllb上访问。
translated by 谷歌翻译
我们研究了评估基于微分方程(DE)网络的鲁棒性的问题和挑战,以防止合成分布转移。我们提出了一种新颖而简单的精度度量,可用于评估固有的鲁棒性并验证数据集损坏模拟器。我们还提出了方法论建议,注定要评估神经des'的鲁棒性的许多面孔,并将其与它们的离散对应物进行了严格的比较。然后,我们使用此标准来评估廉价数据增强技术,以证明神经ODE的自然鲁棒性,以防止多个数据集中的模拟图像损坏。
translated by 谷歌翻译
3D语义分割的最新作品建议通过使用专用网络处理每种模式并将学习的2D功能投射到3D点上,从而利用图像和点云之间的协同作用。合并大规模点云和图像会引起几个挑战,例如在点和像素之间构建映射,以及在多个视图之间汇总特征。当前方法需要网格重建或专门传感器来恢复闭塞,并使用启发式方法选择和汇总可用的图像。相比之下,我们提出了一个可端到端的可训练的多视图聚合模型,该模型利用3D点的观看条件从任意位置拍摄的图像中合并特征。我们的方法可以结合标准2D和3D网络,并优于在有色点云和混合2D/3D网络上运行的3D模型,而无需进行着色,网格融化或真实的深度图。我们为S3DIS(74.7 MIOU 6倍)和Kitti-360(58.3 MIOU)设置了大型室内/室外语义细分的新最先进的。我们的完整管道可以在https://github.com/drprojects/deepviewagg上访问,并且仅需要原始的3D扫描以及一组图像和姿势。
translated by 谷歌翻译
我们提出了一种新的基于深入学习的方法,用于估计从空中平台捕获的3D点云估算植被层的占用。我们的模型预测了三个植被阶层的光栅占用地图:下层,中等和更高的地层。我们的培训方案允许我们的网络仅使用圆柱形图中聚合的值,这更容易产生比像素 - 明智的或点明智的注释。我们的方法在精度方面占据了手工制作和深度学习的基线,同时提供视觉和可解释的预测。我们沿着199农业地块的数据集提供了我们的方法的开源实现,以培训和评估占用回归算法。
translated by 谷歌翻译
光学和雷达卫星时间序列是协同的:光学图像包含丰富的光谱信息,而C波段雷达捕获有用的几何信息,并且对云盖免疫。由于近期基于时间关注的方法的成功跨多种裁剪映射任务,我们建议调查这些模型如何适应多种方式运行。我们实施和评估多种融合方案,包括新颖的方法和对培训程序的简单调整,显着提高性能和效率几乎没有增加复杂性。我们表明大多数融合方案具有优势和缺点,使其与特定设置相关。然后,我们跨多个任务评估多模式的好处:宗地分类,基于像素的分割和Panoptic Parcel分段。我们表明,通过利用光学和雷达时间序列,基于多模式的时间关注的模型可以在性能和弹性方面偶尔将单片式模型到云覆盖。为了进行这些实验,我们使用空间对齐的雷达图像时间序列增强肉饼数据集。生成的数据集,Pastis-R,构成了具有语义和实例注释的第一个大规模,多模式和开放式卫星时间序列数据集。
translated by 谷歌翻译
基于手势的界面通常用于实现更自然和直观的机器人遥气操作。然而,有时候,手势控制需要对用户造成显着疲劳的姿势或运动。在先前的用户学习中,我们证明了NA \“IVE用户可以在其武器展开时控制具有躯干运动的固定翼无人机。然而,这种姿势诱导了重要的手臂疲劳。在这项工作中,我们展示了一款被动臂支撑这补偿了手臂重量,平均扭矩误差小于0.005n / kg,超过0.005n / kg的受试者使用的运动范围的97%以上,因此平均降低肩部的肌肉疲劳。此外,这臂支持旨在将5百分位数的身体尺寸的用户融入第99百分位的男性。使用机械模型描述了臂支架的性能分析,并且其实现是用机械表征和用户学习验证的测量飞行性能,肩部肌肉活动和用户验收。
translated by 谷歌翻译
虽然年度作物旋转在农业优化起到至关重要的作用,但它们主要忽略了自动作物类型的映射。在本文中,我们利用了增加的注释卫星数据的数量,提出了一个同时的第一个深度学习方法建模包裹分类的年间和中内农业动态。除了简单的培训调整之外,我们的模型提供了超过6.3 miou指针的改善,这些作物分类最先进。此外,我们释放了具有超过300,000个注释的包裹的第一个大型多年农业数据集。
translated by 谷歌翻译
前所未有的访问多时间卫星图像,为各种地球观察任务开辟了新的视角。其中,农业包裹的像素精确的Panoptic分割具有重大的经济和环境影响。虽然研究人员对单张图像进行了探索了这个问题,但我们争辩说,随着图像的时间序列更好地寻址作物候选的复杂时间模式。在本文中,我们介绍了卫星图像时间序列(坐着)的Panoptic分割的第一端到端,单级方法(坐姿)。该模块可以与我们的新型图像序列编码网络相结合,依赖于时间自我关注,以提取丰富和自适应的多尺度时空特征。我们还介绍了Pastis,第一个开放式访问坐在Panoptic注释的数据集。我们展示了对多个竞争架构的语义细分的编码器的优越性,并建立了坐在的第一封Panoptic细分状态。我们的实施和痛苦是公开的。
translated by 谷歌翻译